本文提出了一个新的语音转换(VC)任务,从人类语音到类似狗的语音,同时保留语言信息,作为人类到非人类生物语音转换(H2NH-VC)任务的一个例子。尽管大多数VC研究都涉及人类VC,但H2NH-VC旨在将人类的言论转变为非人类生物式的言语。非平行VC允许我们开发H2NH-VC,因为我们无法收集非人类生物说人类语言的并行数据集。在这项研究中,我们建议将狗用作非人类生物目标域的一个例子,并定义“像狗一样说话”任务。为了阐明“像狗一样说话”任务的可能性和特征,我们使用现有的代表性非平行VC方法进行了比较实验,以声学特征(Mel-Cepstral系数和MEL-SPECTROGINS),网络体系结构(五个不同的kernel- kernel--尺寸设置)和训练标准(基于差异自动编码器(VAE)基于对抗性网络)。最后,使用平均意见分数评估了转换后的声音:狗的声音,声音质量和可理解性以及字符错误率(CER)。该实验表明,梅尔光谱图的使用改善了转换后的语音的类似狗,而保留语言信息则具有挑战性。强调了H2NH-VC当前VC方法的挑战和局限性。
translated by 谷歌翻译